10. 练习:动作值函数
练习:动作值函数

正确或错误?:对于确定性策略 \pi,
v_\pi(s) = q_\pi(s, \pi(s))
适用于所有 s \in \mathcal{S}。
在回答这个问题时,可以使用上述状态值函数和动作值函数作为确定性策略示例。
正确或错误?:对于确定性策略 \pi,
v_\pi(s) = q_\pi(s, \pi(s))
适用于所有 s \in \mathcal{S}。
在回答这个问题时,可以使用上述状态值函数和动作值函数作为确定性策略示例。